Text-guided image editing can have a transformative impact in supporting creative applications. A key challenge is to generate edits that are faithful to input text prompts, while consistent with input images. We present Imagen Editor, a cascaded diffusion model built, by fine-tuning Imagen on text-guided image inpainting. Imagen Editor's edits are faithful to the text prompts, which is accomplished by using object detectors to propose inpainting masks during training. In addition, Imagen Editor captures fine details in the input image by conditioning the cascaded pipeline on the original high resolution image. To improve qualitative and quantitative evaluation, we introduce EditBench, a systematic benchmark for text-guided image inpainting. EditBench evaluates inpainting edits on natural and generated images exploring objects, attributes, and scenes. Through extensive human evaluation on EditBench, we find that object-masking during training leads to across-the-board improvements in text-image alignment -- such that Imagen Editor is preferred over DALL-E 2 and Stable Diffusion -- and, as a cohort, these models are better at object-rendering than text-rendering, and handle material/color/size attributes better than count/shape attributes.
translated by 谷歌翻译
我们研究了在室内路线上捕获的360度图像中的自动生成导航指令。现有的发电机遭受较差的视觉接地,导致它们依赖语言前沿和幻觉对象。我们的Marky-MT5系统通过专注于视觉地标来解决这一点;它包括第一阶段地标检测器和第二级发生器 - 多峰,多语言,多任务编码器 - 解码器。要培训它,我们在房间顶部(RXR)数据集的顶部引导地标注释。使用文本解析器,来自RXR的姿势迹线的弱监督,以及在1.8B图像上培训的多语言图像文本编码器,我们识别1.1M英语,印地语和泰卢语的地标描述并将其接地为Panoramas的特定区域。在房间到室内,人类途径在Marky-MT5的指示之后获得了71%的成功率(SR),只害羞他们的75%SR在人类指令之后 - 以及与其他发电机的SR高于SRS。对RXR更长的评估,不同的路径上的三种语言获得61-64%的SRS。在新颖环境中生成这种高质量的导航指令是迈向对话导航工具的一步,可以促进对指令跟随代理的大规模培训。
translated by 谷歌翻译
当代人工神经网络(ANN)是经过训练的端到端,共同学习功能和分类器以完成感兴趣的任务。尽管非常有效,但这种范式在组装带注释的特定任务数据集和培训大规模网络方面施加了巨大的成本。我们建议通过引入视觉生物标志物分类的辅助预任务来将特征从下游肺超声任务中学习。我们证明,通过培训模型来预测生物标记标签,可以从超声视频中学习一个内容丰富,简洁和可解释的功能空间。值得注意的是,可以从弱视频尺度监督注释的数据中培训生物标志物功能提取器。这些功能可以由针对各种临床任务的各种下游专家模型(诊断,肺严重程度,S/F比)使用。至关重要的是,特定于任务的专家模型的准确性与直接训练此类目标任务的端到端模型相当,同时训练成本大大降低。
translated by 谷歌翻译
败血症是一种威胁生命的患有器官功能障碍的疾病,是全球死亡和重症疾病的主要原因。急诊科分类过程中败血症的准确检测将允许尽早开始实验室分析,抗生素给药和其他败血症治疗方案。这项研究的目的是确定是否可以将EHR数据与最新的机器学习算法(Kate Sepsis)和临床自然语言处理一起提取和合成,以产生准确的脓毒症模型,并将Kate Sepsis与现有的败血症筛查方案进行比较爵士和QSOFA。使用来自16家参与医院的分类数据的患者遇到的患者遭遇开发了机器学习模型(Kate Sepsis)。凯特败血症,SIRS,标准筛查(具有感染源的SIRS)和QSOFA在三个设置中进行了测试。队列A是对单个站点1的医疗记录的回顾性分析。同类B是对位点1的前瞻性分析1.同伴C是对站点1的回顾性分析,并有15个地点。在所有队列中,凯特败血症的AUC为0.94-0.963,TPR为73-74.87%和3.76-7.17%FPR。标准筛选显示AUC为0.682-0.726,TPR为39.39-51.19%和2.9-6.02%FPR。 QSOFA协议的AUC为0.544-0.56,TPR为10.52-13.18%和1.22-1.68%FPR。对于严重的败血症,在所有队列中,凯特败血症的AUC为0.935-0.972,TPR为70-82.26%和4.64-8.62%FPR。对于败血性休克,在所有队列中,凯特败血症的AUC为0.96-0.981,TPR为85.71-89.66%和4.85-8.8%FPR。 SIRS,标准筛选和QSOFA表现出严重败血症和败血性休克检测的低AUC和TPR。凯特败血症在分类中提供的败血症检测性能比常用的筛查方案更好。
translated by 谷歌翻译